查看原文
其他

“草莓”现真身

调研纪要 2024年09月13日 14:04

9月13日,OpenAl宣布其最新的模型OpenAl o1(内部代号“草莓大模型”)正式发布,主打推理能力,号称能解决比以往模型更难的科学、编程和数学问题。

- 推理能力大:OpenAI 表示,o1 模型在物理、化学和生物等学科的 challenging 基准测试中,表现与博士生相当

- 数学和编程能力: 在一项国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 的正确率只有 13%,而 o1 模型的正确率高达 83%!在 Codeforces 编程竞赛中,o1 模型的成绩也达到了前 89%!


之前的市场预期:


发布时间基本符合预期:



技术关键点:RL & CoT & 慢思考换取推理能力【大幅】提升
【为什么提高?Scaling Law新范式,从预训练向后训练和推理转移】o1经过强化学习训练来执行复杂的推理,并在回答之前产生一个很长的内部思维链(CoT)。强化学习(RL)+ 思维链(CoT)在高度数据高效的训练过程中教会模型如何高效思考。随着更多的强化学习(训练时的计算)和更多的思考时间(测试时的计算),o1的性能会持续提升。这种Scaling束与LLM的预训练显著不同,Scaling中心向预训练向后训练&推理转移。
【效果:数学、物理、逻辑、代码能力“大幅”提升】AIME考试(类似美国高中生奥赛)中,GPT-4o 平均只解决了 12% (1.8/15) 的问题。o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15)。【提升62%】。GPQA diamond(测试化学、物理和生物学方面的专业知识)上,o1【超过了PhD-Level】专家,并没有花1-1.5年的时间!Codeforces编程竞赛中,结果GPT-4o 为808, o1为 1807,超过 93% 的人类对手。
【对应用的影响】以编程智能体Devin为例,4o驱动下评估分25.9%,o1驱动下评估分为51.8%,再加点后续产品优化能做到74.2%!就是我们之前说的,更智能的大模型将解决killer app和agent的应用问题!等到成本进一步控制下来,killer app将更容易出现。
【对算力影响的初步定性判断】首先,大规模的Scaling Law仍然是需要的,保证模型有较好的基础性能。在此基础上,强化学习、思维链和更长的思考时间,对应了更大的后训练和推理算力消耗。初步判断算力需求上升并且幅度不小。
【使用与成本】现在开始,ChatGPT Plus 和 Team用户将能够访问 ChatGPT 中的 o1 模型【无需排队】。除了o1,还发了o1 mini,价格便宜80%。由于对算力消耗的提升,【o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条。】 API价格:o1每百万token,输入$15输出$60,4o输入2.5$输出$10,贵了快6倍。

综合以上,OpenAI o1技术的关键词:【RL(Self-Play RL)强化学习】【思维链(CoT)】。


在此催化下,今日光模块&PCB大涨。

- o1模型数理化能力超预期:

o1数理化、编码领域能力出色。o1在国际数学奥林匹克竞赛(IMO)考试中得分83%,此前GPT-4o仅解决了13%的问题,且o1在Codeforces比赛中达到第89个百分位。应用领域来看,o1所增强的推理功能可用于医疗保健行业的细胞测序数据注释、物理学领域的量子光学数学公式生成等一些列科学、编码、数学领域。

o1-mini更经济、更快速。同系列模型中,o1-mini是一种更快捷、更便宜的推理模型,擅长编码,o1-mini比o1-preview便宜80%,适用于需要推理但不需要广泛世界知识的应用程序。

o1目前为早期版本。其功能性尚不及ChatGPT如浏览网页、分析上传的文件和图像。目前ChatGPT Plus和Team用户可在ChatGPT中手动选择o1-mini和o1-preview,下周ChatGPT Enterprice和Edu用户也可访问。在启动时,o1-preview 的每周速率限制为30条消息,o1-mini 的每周速率限制为50条消息。

- o1的亮点在于在尝试解决问题时会使用思维链(CoT),具备识别和纠正错误能力,在自我内部思考时间增加时,其能力也能得到提升。这不同于传统的Scaling Law(尺度定律),后者主要关注训练过程中的参数量、数据量和计算量。我们认为此次OpenAI o1系列的发布并不仅仅是新模型的亮相,而是为未来大模型的性能开辟了新路径。

英伟达的具身团队领导者 Jim Fan 直接在 X 上点评了这一事件的历史意义——模型不仅拥有训练时的 scaling law,还拥有推理层面的 scaling law,双曲线的共同增长,将突破之前大模型能力的提升瓶颈——意味着大幅提升了对算力需求持续性。


光模块边际变化,1和5的逻辑开始兑现。光博会及光模块专家重要更新:

1、昨日和今日meta分别奔赴光模块厂家F和XC看厂并下单(XYS时间不知),预计meta总订单规模130万只800G左右(大约30%硅光),在24Q4和25Q1执行完,价格没有下降,单模800美金,而且硅光价格没有下降。

2、1.6T光模块目前XC最为领先,且预计25年大概率均是硅光(提升毛利率),而且开始阶段份额预计很高。

3、目前看N客户25年Q1的800G订单环比并没有减少。

4、1.6T的dsp主要还是用博通的,100g的eml芯片目前非常紧缺时断时续,无源、MT插芯偶尔会缺货/电芯片目前还算稳定。

5、目前XC和G客户一起在研发全光交换机(CPO不用担心了)


继续滑动看下一个
调研纪要
向上滑动看下一个
选择留言身份

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存